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Abstract 

Based on data from the Indonesian Ministry of Health, there has been an increase in the number of stroke 
cases by 3.9fo from 2013 to 2018. Nationally, the number of stroke cases often occurs in groups that have 
an age range between 55-64 years and the least occur in the 15-24 age range. A stroke (Cerebrovascular 
Accident) is a condition where blood flow to the brain is suddenly interrupted or reduced. This can be 
caused by a blockage or rupture of blood vessels so that cells in the brain area do not get a blood supply 
that is full of nutrients and oxygen. Early detection is needed which aims to reduce the number of 
potential deaths from stroke. Stroke prediction is still a challenge in the field of medicine, one of the 
reasons is the volume of data on medical data which has high heterogeneity and complexity. Machine 
learning technigues are data analysis models that can be used to predict stroke. Various machine 
learning models have been proposed by previous researchers, one of which is the Support Vector 
Machine. This study tries to re-implement the SVM algorithm to get better performance results than 
previous studies. In this study, the accuracy value was 10096 and ROC-AUC values were 10090. Further 
studies need to be carried out regarding the results obtained to reach 10090. 
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Abstrak 

Berdasarkan data dari Kementerian Kesehatan Indonesia, telah terjadi peningkatan jumlah pada kasus 
penyakit stroke sebesar 3.99o mulai dari tahun 2013 sampai dengan tahun 2018. Secara nasional, jumlah 
kasus stroke sering terjadi pada kelompok yang memiliki rentang umur antara 55-64 tahun dan paling 
sedikit terjadi pada rentang umur 15-24. Stroke atau (Cerebrovascular Accidents) merupakan sebuah 
keadaan dimana aliran darah ke otak mengalami gangguan mendadak atau berkurang. Hal tersebut 
dapat disebabkan oleh penyumbatan atau pecah pembuluh darah, sehingga sel-sel pada area otak tidak 
mendapatkan pasokan darah yang nutrisi dan oksigen. Diperlukan deteksi dini yang bertujuan untuk 
mengurangi jumlah potensi kematian akibat stroke. Prediksi stroke masih menjadi tantang dalam bidang 
kedokteran, salah satu penyebabnya adalah volume data pada data medis yang memiliki heterogenitas 
dan kompleksitas yang tinggi. Teknik machine learning merupakan model analisis data yang dapat 
digunakan untuk memprediksi penyakit stroke. Berbagai model pembelajaran machine learning telah 
diusulkan oleh peneliti-peneliti sebelumnya, salah satunya Support Vector Machine. Penelitian ini 
mencoba menerapkan kembali algoritma SVM dengan mendapatkan hasil kinerja lebih baik dari 
penelitian sebelumnya. Dalam penelitian ini didapatkan nilai accuracy sebesar 10096 dan nilai ROC- 
AUC sebesar 10090. Perlu dilakukan pengkajian lagi terkait hasil yang didapatkan hingga mencapai 
10090. 
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1. PENDAHULUAN 

Menurut WHO, stroke adalah penyakit 
penyebab kematian peringkat kedua setelah 
penyakit iskemik. Terdapat lima belas juta 
penderita stroke di seluruh dunia setiap 
tahunnya. Dan setiap 4-5 menit, terdapat 
penderita sroke yang meninggal di seluruh 
dunia (1). Berdasarkan data dari Kementerian 
Kesehatan Indonesia, adanya peningkatan 
jumlah terhadap kasus stroke dengan presentasi 
sebesar 3,946 dari tahun 2013 menuju ke 2018. 
Secara nasional, jumlah kasus stroke sering 
terjadi pada pada kelompok yang memiliki 
rentang umur antara 55-64 tahun dan kemudian 
paling sedikit terjadi pada kelompok yang 
berumur 15-24. (21 

Stroke (Cerebrovascular Accidents) 
merupakan sebuah keadaan dimana aliran darah 
ke otak mengalami gangguan mendadak atau 
berkurang. Hal tersebut dapat disebabkan oleh 
penyumbatan atau pecah pembuluh darah, 
sehingga sel-sel pada area otak tidak 
mendapatkan pasokan darah yang nutrisi dan 
oksigen (3|. 

Diperlukan deteksi dini dan 
penanganan yang tepat guna meminimalkan 
kerusakan lebih lanjut pada bagian otak serta 
komplikasi yang terjadi pada bagian tubuh 
lainnya (4). Deteksi dini dapat dilakukan 
melalui perancangan sebuah model pendekatan 
yang dapat digunakan untuk mengidentifikasi 
serta melakukan prediksi terhadap risiko stroke 
(5) dengan mempertimbangkan beberapa faktor 
yang merupakan faktor-faktor yang berisiko 
umum dan memiliki jangka panjang antara lain 
hyperglikemia,  hypertens,  hyperlipimedia, 
tekanan tinggi serta stress karena emosi (61. 
Prediksi stroke memiliki tujuan untuk 
mengurangi jumlah kematian yang diakibatkan 
oleh penyakit stroke. 

Prediksi stroke masih menjadi tantang 
dalam bidang kedokteran (7). Salah satu 
penyebabnya adalah volume data pada data 
medis yang memiliki heterogenitas dan 
kompleksitas yang tinggi (8). Teknik machine 
learning merupakan model analisis data yang 
dapat digunakan untuk memprediksi penyakit 
stroke (7). 

Berbagai model pembelajaran machine 
learning telah diusulkan oleh peneliti-peneliti 
sebelumnya, antara lain Decision Tree (9), 
Support Vector Machine, Naive Bayes (10J 
(11), Random Forest, Logistic Regression (121, 
(131. 

Penelitian sebelumnya (11) melakukan 
analisis prediksi stroke dengan menggunakan 
metode machine learning. Dihasilkan nilai 
akurasi untuk Logistic Regresion 17846, 


Decisition Tree Classification 66960, Random 
Forest Classification 7396, KNN 8096, Support 
Vector Machine 8096 dan Naive Bayes 8290. 

Selanjutnya penelitian (14) yang juga 
melakukan analisis prediksi stroke dengan 
menggunakan model machine learning yang 
sama. Didapatkan akurasi algoritma Decistion 
Tree 74.319. Random Forest sebesar 74.534 
dan multilayer parceptron sebesar 75.024. 
Berikutnya — penelitian (15) melakukan 
perbandingan kinerja algoritma — machine 
learning KNN, Naive bayes, SVM dan Decision 
Tree. Diperoleh nilai akurasi Naive bayes 
sebesar 93.939, KNN 91.1996, Support Vector 
Machine 93.1596 dan Decision Tree 90.907. 

Penelitian ini mencoba menerapkan 
kembali algoritma SVM dengan mendapatkan 
hasil kinerja lebih baik dari penelitian 
sebelumnya. Sehingga penelitian ini, dapat 
memprediksi penyakit stroke dengan performa 
yang lebih baik lagi menggunakan algoritma 
machine learning. 


2. METODE PENELITIAN 
Tahapan dalam penelitian ini dilakukan sesuai 
dengan Gambar 1. Tahapan penelitian. 


b Dataset Collection 4 
Mengumpulkan dataset dari Kaggle.com 
, 
b Data Preprocessing 4 
Data Label Encoder Data Cleaning 


: 
b Splitting Data 4 
Data Testing | Data Validation | Data Training | 
' 
b Modelling Algoritma , 
Prediksi denganSVM | 
: 
. Evaluasi Model . 
Confusion Matrix | 


Gambar 1. Tahapan Penelitian 


Tahapan penelitian dimulai dari proses 
pengumpulan dataset. Selanjutnya adalah proses 
preprocessing data yang dilakukan dengan cara 
data cleaning serta dan kemudian label 
encoding. Setelah itu, data yang telah 
diprocessing kemudian dibagi menjadi data latih 
(data train) dan data uji (data test). Berikutnya 
adalah membuat model machine learning untuk 
melakukan prediksi stroke, yaitu Support Vector 
Machine,Terakhir adalah evaluate dari model 
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yang telah dibuat dengan menggunakan 
confusion matrix. 


3. HASIL DAN PEMBAHASAN 
3.1 Dataset Description 
Pada penelitian ini, dataset yang digunakan 
berasal dari kaggle.com (16), dimana dataset 
tersebut terdiri atas 12 field atau attribute serta 
5110 baris atau entri data pasien. Dataset 
tersebut telah digunakan dalam penelitian- 
penelitian sebelumnya, diantaranya (17). Dalam 
dataset tersebut terdapat 11 feature yang 
dijadikan sebagai parameter utama dalam 
memprediksi kemungkinan pasien mengindap 
stroke. Kemudian 11 feature tersebut dibagi 
menjadi tiga faktor, yaitu gaya hidup, resiko 
medis dan faktor-faktor yangOtidak bisa 
dikendalikan (18). Faktor-faktor gayaOhidup 
merupakan faktor yang terdiri atas kebiasaan 
pada setiap individu berdasarkan keinginan dan 
kemampuan ekonomi. Contohnya seperti 
aktivitas makan, aktivitas minum, aktivitas- 
aktivitas fisik dan juga merokok. Faktor untuk 
resiko medis merupakan variable yang memiliki 
hubungan dengan peningkatan resiko terhadap 
penyakit stroke, seperti level glukosa, Riwayat 
pasien terhadap penyakit jantung dan tekanan 
darah. Dan terakhir faktor tidak dapat 
dikendalikan yaitu faktor secara telah melekat 
atau tidak dapat diubah pada pasien, seperti usia 
dan jenis kelamin.|8JI12|. 

Penjelasan attribute dan dekripsi 
dataset dapat dilihat pada Tabel 1. Deskripsi 
Dataset dibawah ini 


Table 1. Deskripsi Dataset 


Attribute | Description Tipe 
Data 
ID ID atau nomor dataData 
pasien humerik 
Gender Jenis Kelamin pada Data 
pasien Ikategorik 
Age Usia si pasien Data 
numerik 
Hypertensi (Berkategori, yaitu 0 Data 
on artinya tidak numerik 


Imengalami hipertensi 
1 artinya mengalami 


hipertensi 
Heart 0 artinya — tidak Data 
disease memiliki riwayat numerik 
penyakit jantung 1 
artinya memiliki 
riwayat penyakit 
jantung 
Marital Status perkawinan si Data 
status pasien kategorik 


Work type Jenis pekerjaan si Data 
pasien Ikategorik 
Residence (Wilayah tempat yang (Data 
area ditinggali si pasien — Ikategorik 
Avg- Nilai rata-rata tingkat Data 
glukose level glukosa dalam inumerik 
darah si pasien yang 
diukur 
BMI Body Mass Index si Data 
pasien numerik 
Smoking — Status merokok Data 
Status pasien Ikategorik 
Stroke Kesimpulan, apakah (Data 
status 0 tidak mengalami numerik 
stroke 1 mengalami 
stroke 
3.2 Data Processing 


Pada tahap ini dilakukan preprocessing agar 
performa algoritma dalam memprediksi dapat 
bekerja dengan baik dan menghasilkan accuracy 
yang tinggi, Yang dilakukan pada tahap ini 
diantaranya yaitu data cleaning terhadap dataset 
yang mengalami missing values. Selain itu, 
dilakukan juga pengkodean label menggunakan 
fungsi label encoding untuk mengkodekan data 
kategori menjadi data numerik. Selain itu juga 
mengubah data bertipe string menjadi 
integer/angka. 


3.3 Splitting Data 

Sebelum data dimodelkan menggunakan 
algoritma machine learning, terlebih dahulu data 
dibagi atau displitting menjadi data training dan 
data testing dengan rasio perbandingan 80:20. 


3.4 Modelling Algorithm 

Modelling algoritma machine learning yang 
digunakan untuk penelitian ini yaitu Support 
Vector Machine dan ANN (Artifical Neural 
Network). SVM Merupakan algoritma untuk 
membuat sebuah garis pemisah (hyperlane) 
ideal pada ruang komponen dimensi yang lebih 
tinggi agar dapat memetakan informasi dengan 
resiko yang minim (19). 

Hyperlane atau pemisah dibangun 
menggunakan support vector, data yang lebih 
dekat terhadap hyperlane. Data tersebut terletak 
pada batas irisan kelas pertama yang disebut 
dengan support vector # (positif), dan kemudia 
kelas kedua support vector — (negative). Jarak 
antara support vector disebut margin, dimana 
maximum margin merupakan hyperlane yang 
baik. Tujuan dari SVM yaitu mencari 
hyperlance optimal dalam membagi data agar 
benar-benar terpisah menjadi dua bagian. 
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3.5 Evaluasi Model 

Modelling Matriks evaluasi model dilakukan 
untuk mengukur kinerja suatu metode 
klasifikasi sehingga dapat diketahui seberapa 
baik sistem dalam melakukan klasifikasi data. 
Pengujian dilakukan menggunakan matrics 
performance dan ROC-AUC. 

Metrics performance terdiri atas parameter 
accuracy , precision , recall , fl-score . 
Accuracy merupakan perbandingan antara data 
sampel yang diprediksi benar — dengan 
jumlah total data sampel (20). Berikut adalah 
rumus untuk mencari nilai accuracy 


TP3TN ( 1 ) 


Accuraey 5 ———— 
TPAFP4TN4FN 


Precision merupakan perbandingan antara 
sampel berkategori positif benar yang 
dibandingkan dengan total data sampel yang 
diprediksikan positif 


Precision 5 —- (2) 
TP & FP 
Recall adalah nilai perbandingan data 
sampel yang diprediksi bernilai positif dan 
memiliki kategori positif benar 


Recall — 
TP-FN (8 ) 


Fl-score adalah nilai rata-rata antara nilai 
yang didapatkan dari precision dan nilai dari 
recall 


2wpresison X Recall ) 4 


Fl-score — “aa 
Precision -Recall 


ROC-AUC adalah grafik yang menggambarkan 
hubungan antara dua dimensi yaitu antara 
parameter true positive rate terhadap parameter 
false positive rate (8). 


3.5 Evaluasi Model 

Berikut adalah tampilan 5 data dari dataset 
stroke yang didapatkan pada situs kaggle.com 
yang di tunjukan pada Gambar 2. 


Gambar 2. Dataset Stroke 


Selanjutnya dilakaukan dilakukan preprocing 
data. Ditemukan terdapat data yang bernilai null 
sebanyak pada field bmi. Data bernilai null 
tersbut — kemudian dihapus. Selanjutnya 
dilakanan visualisasi terhadap field atau 
attribute yang digunakan untuk klasifikasi. 


Visualisasi Data 


Berikut adalah Gambar 3. Visualisasi parameter 
stroke 

2 » - | s 
ET “1 ali 


Gambar 3. Visualisasi Parameter Stroke 

Dari hasil visualisasi diatas, ditemukan data bias 
yang terjadi pada parameter gender. Terdapat 
data gender yang bernilai other. Data bias 
tersebut kemudian dihapus, sehingga total data 
yang akan di modelling sebanyak 4908. 

Berikut adalah Gambar 4, distribution 
feature yang bernilai numerical. 


Distribution of Numerical features based on target variable 


Gambar 4. Distribution Numerical Feature 


Dari distribution angka diatas, dapat 
disimpulkan bahwa penyakit strok rentang 
terjadi pada umur 40 tahun keatas dengan rata- 
rata glukosa level sebesar 100 dan Index max 
body berada sekitar 30. Selanjutnya, Gambar 5 
adalah korelasi antar feature pada dataset 


Korelasi data Pasien terhadap feature 


iseasi 


Average Glucose Ls 


Gambar 5. Korelasi antar feature 


Dari gambar diatas, dapat disimpulkan bahwa 
terdapat 
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- korelasi positif kecil antara attribute 
Average Glucose Level ,Age, , Heart 
Disease, Hypertension. 

- Selanjutnya, terdapat korelasi positif yang 
kecil juga antara Age and Stroke, Heart 
Disease ,Hypertension, BMI , Average 
Glucose Level. 

- Terdapat juga korelasi positif kecil antara 
Smoking Status and Marital Status, 
Occupation Type and BMI. 

- Terakhir, terdapat korelasi positif medium 
antar Age and Occupation Type. 

- Serta korelasi negative medium antara Age 
and Marital Status. 


Hasil evaluate dari model yang dibuat dengan 
menggunakan confusion matrix seperti pada 
Gambar 6 berikut ini: 


confusion matrix 


Actual Label 


- 200 


1 
Predicted Label 


Gambar 6. Confusion Matrix Predicted 


Dari Gambar 6& diatas, diketahui bahwa 
sebanyak 922 data yang diprediksi benar pada 
label 0. Dan sebanyak 958 data yang diprediksi 
benar pada label 1. Berikut Gambar 7, 
Classification Report yang menampilkan data 
precision, recall dan f1 -score. Nilai akurasi yang 
didapatkan dalam penelitian mencapai hingga 


Gambar 7. Classification Report 


4. KESIMPULAN 

Penelitan yang dilakukan diatas berjalan dengan 
baik. Dengan menggunakan dataset yang sama 
serta metode algoritma yang sama yaitu Suppot 
vector machine, Nilai akurasi pada penelitian ini 
lebih baik dari yang didapatkan pada penelitian 
sebelumnya. Nilai akurasi yang didapatkan 
sebesar 10096. Bukan tidak mungkin suatu 
accuracy mendapatkan nilai 10096. Bisa jadi 
dikarenakan beberap hal terkait imbalanced data 


yang menyebabkan terjadi accuracy yang 
sempurna. Saran penulis untuk penelitian 
kedepannya, agar ditambahkan lagi process 
imbalanced, agar didapatkan nilai akurasi yang 
tertinggi. 
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